1.1 構成
MN-Core 2
は、ツリー状に階層化された
メモリ
間での集団通信と、その
ツリー
の葉にあたる多数の
行列ベクトル積専用回路
付き
演算ユニット
での
浮動小数点数演算
を、
VLIW形式
の命令により並列動作させることで、高い実効性能・電力性能を実現する
SIMD並列方式
の
アクセラレータボード
である。
キャッシュ
は存在せず、すべてのボード内
データ転送
は
機械語命令
で明示的に指定される。
機械語命令は
制御構造
の存在しない、 1 ボードに対して単一の
ストリーム
である。
キャッシュの代わりに、ツリーの葉には演算ユニットに加えて大容量の
ローカルメモリ
(
SRAM
)が存在する。
データの移動をできるだけツリーの葉側に留めるように並列演算を配置することで、高帯域なデータ移動を低コストに実現し、演算効率を高められる。
1
ボード
は 1
チップ
と周辺回路からなる。
1 チップはツリーの根にあたる
トップレベル
と、その子である 8 つの
L2B
(
Level 2 Block
)からなる。
L2B以下は次のようなツリーになっている。
1つの
L2B
は 8 個の
L1B
(
Level 1 Block
)を子として持つ
1つの
L1B
は 16 個の
MAB
(
Matrix Arithmetic Block
、
行列演算ブロック
)を子として持つ
1つの
MAB
は 4 個のPEを子として持ち、また 1 つのMAU (
Matrix Arithmetic Unit
、
行列演算ユニット
)を持つ
よって例えば
PE
はボードあたり 4096 個あることになる。
L2BとL1Bはそれぞれローカルに
SRAM
を持ち、
L2BM
および
L1BM
と呼ばれる。
PEはいくつかの種類の
ローカルメモリ
と
ALU
(
Arithmetic Logic Unit
、
整数演算ユニット
)からなる。
L2Bは 2 つごと、計 4 つのグループに分かれており、グループごとに 1 つの
PDM
(
PIU Data Memory
、
PIU
は
PCIe Interface Unit
)というSRAMと、
DRAM
が付属する。
トップレベル
は自グループおよび他グループの間で、
PDM
、
DRAM
、
L2BM
の 3 種のメモリ(上位記憶)間のデータ転送を行える。
第 0 番グループの
PDM
はホストと
PCIeインターフェース
で接続され、ホストとの入出力データ通信はすべてPDMを経由する。
上位記憶
とL1BMおよびPE内ローカルメモリが冒頭で述べた『
ツリー状に階層化されたメモリ
』、MAUが『
ツリーの葉にあたる多数の行列ベクトル積専用回路付き演算ユニット
』にあたる。
https://gyazo.com/2368c5a1ce4967dbcc58c66066526650